#Hugging Face
Hugging Face 特別發文:DeepSeek 時刻一周年,中國 AI 改變了什麼?
昨天,全球最大的 AI 開源社區 Hugging Face(抱抱臉) 發佈了他們中國開源系列的首篇文章:“DeepSeek 時刻”一周年。圖:Hugging Face 的文章如果說 2023 年是“ChatGPT 時刻”,那麼在 Hugging Face 的眼中,2025 年,無疑是屬於中國開源 AI 的“DeepSeek 時刻”。這篇報告不僅復盤了過去這一年中國 AI 的“狂飆突進”,更揭示了一個讓無數開發者振奮的事實:攻守之勢,已經異也。我們一起來看看這篇有意思的復盤文章。01 為什麼是“DeepSeek 時刻”?把時鐘撥回到一年前,2025 年的 1 月。當時,杭州的一家 AI 公司——DeepSeek(深度求索),扔出了那個後來改變一切的 R1 模型。在 Hugging Face 看來,這不僅僅發了一個新模型,而是中國 AI 發展史上的一個分水嶺。因為資料記錄下了一個歷史性的轉折點:這是中國開源模型,第一次真正殺進全球主流排行榜。而且這一進就收不住了。R1 迅速超越了 Llama 等西方頂流,成為了 Hugging Face 歷史上獲贊最多的模型。看看現在的榜單,曾經被美國開發者的名字霸屏的時代,終結了。圖:獲贊最多的模型在隨後的一整年裡,R1 更是成了全球 AI 界的“度量衡”:任何新模型發佈,都要拿來跟它比一比。它不再是追隨者,它成了標竿。報告中有一段非常精彩的論述:“R1 的發佈給了中國 AI 發展最寶貴的東西:時間。”在此之前,很多企業在“開源還是閉源”之間搖擺不定,受困於算力瓶頸。但 R1 的出現,用事實證明了:即便算力有限,只要路線對、迭代快,中國依然可以彎道超車。Hugging Face 總結了 R1 掃清的三個“障礙”:技術門檻碎了: 公開推理路徑,把“推理”變成了人人可用的工程模組。應用門檻碎了: MIT 協議一出,直接商用,大家不再捲跑分,開始卷落地。心理門檻碎了(這點最關鍵): 報告用了 "Psychological" 這個詞。翻譯成大白話就是:中國開發者的“心魔”破了。 我們不再問“能不能做?”,而是開始問“怎麼做得比別人好?”。我們中國人說,破山中賊易,破心中賊難。這種自信的回歸,才是“DeepSeek 時刻”真正的靈魂。02 被“倒逼”出來的黃金時代R1 點了一把火,隨後的 2025 年,中國 AI 界發生的事情,被 Hugging Face 稱為“有機的生態爆發”。這篇報告不僅誇了 DeepSeek,更點名表揚了百度、騰訊、字節、阿里等大廠。資料顯示,百度在 HF 上的發佈數量從 0 飆升到 100+,其他大廠也是數倍增長。(阿里、字節發佈數量翻了 8~9 倍)圖:HF 統計的中國公司的模型倉庫增長情況而 Kimi K2 的發佈,更是被譽為“另一個 DeepSeek 時刻”。更狠的還在後面。這些模型發出來不是當擺設的。報告顯示,在所有發佈不滿一年的新模型中,中國模型的總下載量已經超越了包括美國在內的任何其他國家。圖:中國模型的下載數量超過了任何其他國家智譜 AI(Zhipu AI)的 GLM、阿里的 Qwen,已經不滿足於發發權重了,他們開始建構完整的工程系統和介面。每周 Hugging Face 上“最受歡迎”和“下載最多”的榜單裡,中國模型幾乎成了常駐嘉賓。圖:中國開源模型熱力圖這裡有一句非常有意思的評論:“中國玩家們的協同,不是靠簽協議,而是靠‘制約’。”什麼意思?就是說在同樣的算力限制、合規要求和成本壓力下,大家“被迫”默契地走上了同一條高效的工程化道路。這聽起來有點“內卷”的苦澀,但資料證明:這種高強度的競爭,捲出了一個生命力極強、甚至開始反超美國的生態。我們不僅在發模型,更是在定義標準。03 全球反轉:現在,輪到西方“找替補”了文章最讓我感到魔幻現實主義的部分,是關於全球反應的描述。曾幾何時,我們是西方的學徒。但“DeepSeek 時刻”一年後的今天,世界變了。這種變化,連大洋彼岸的巨頭都坐不住了。就在上周,微軟(Microsoft) 發佈了《2025 全球 AI 普及報告》,將 DeepSeek 的崛起列為 2025 年“最意想不到的發展之一”。微軟在這份報告裡揭示的資料,非常讓人意外:在非洲:DeepSeek 的使用率是其他地區的 2 到 4 倍。原因很簡單:免費、開源。它沒有昂貴的訂閱費,也不需要信用卡,徹底打破了矽谷設下的“付費牆”。在被西方忽略的角落:資料顯示,DeepSeek 在國內份額高達 89%,在白俄羅斯達到 56%,在古巴也有 49%。圖:DeepSeek 全球市佔率分佈微軟不得不承認一個扎心的事實:AI 的普及不僅僅取決於模型有多強,更取決於誰能用得起。這種“農村包圍城市”的勝利,讓西方開發者徹底破防。Hugging Face 報告指出,現在許多美國初創公司已經默認使用中國開發的模型作為基座。甚至出現了“套殼”反轉:美國發佈的 Cogito v2.1(號稱領先的開放權重模型),其實就是 DeepSeek-V3 的微調版。甚至有一個美國的項目叫 ATOM (American Truly Open Model),他們的立項動機竟然是:“看到 DeepSeek 和中國模型太強了,我們必須奮起直追”。看到這裡,我真的忍不住想笑。曾幾何時,這是我們的台詞啊。04 暴風雨前的寧靜:DeepSeek 的“瘋狂一月”如果你以為 DeepSeek 在發完 R1 後就躺在功勞簿上睡大覺,那你就大錯特錯了。就在 DeepSeek 時刻一周年即將到來的這段時間(從元旦開始),這家公司的一系列“反常”動作,讓敏銳的技術圈嗅到了一絲暴風雨將至的味道。動作一:清理“技術債”,R1 論文一夜暴漲 60 頁就在不久前,有開發者發現 DeepSeek 悄悄更新了那一年前發佈的 R1 論文。這一更不得了,頁數直接從 22 頁暴漲到了 86 頁!他們把過去這一年裡所有的訓練細節、失敗嘗試、甚至那些不為人知的“坑”,全部毫無保留地補全了。這在行業裡通常只有一個解釋:這一頁翻篇了,我們要去搞更牛的東西了。動作二:底層架構大換血緊接著,DeepSeek 密集甩出了兩篇重磅新論文:《mHC》和《Engram》。看不懂沒關係,你只需要知道這兩篇論文想幹什麼——他們在試圖重寫大模型記憶和思考的方式。特別是 Engram,它想讓模型擁有“即時查閱記憶”的能力。這意味著,未來的模型可能更小、更快,但更聰明。動作三:GitHub 裡的神秘程式碼“MODEL1”昨晚又引起大家關注的,是眼尖的網友在 DeepSeek 更新的 GitHub 程式碼庫裡,扒出了一個疑似新模型的代號——“MODEL1”。圖:DeepSeek 程式碼庫洩露的 MODEL 1這個不起眼的變數名,現在已經被各路大神盤包漿了。大家都在猜,這會不會就是傳說中即將要在春節期間發佈的 DeepSeek V4?“DeepSeek 的每一次沉默,通常都意味著一次更大的爆發。”種種跡象表明,2026 年的春節,大機率又不會平靜了。寫在最後Hugging Face 這篇報告的結尾,預測 2026 年將會有更猛烈的爆發,尤其是在架構和硬體的選擇上,中國公司將繼續通過開源生態施加影響。回顧這魔幻的一年,從 DeepSeek R1 的驚天一雷,到百模大戰的全面開源,再到如今 Hugging Face 官方以“DeepSeek Moment”為題來記錄歷史。這不僅僅是技術的勝利,更是開源精神在東方的勝利。我們不再是跟隨者,我們已經坐在了牌桌的主位。2026,好戲才剛剛開始。 (AI范兒)
這一次,輪到美國人抄中國作業了!DeepSeek 單槍匹馬“屠榜”,矽谷還有護城河嗎?
“如果說OpenAI的o1是一座圍牆高聳的金庫,那麼DeepSeek剛剛做的,就是直接把金庫的大門炸開,然後對著全世界喊:‘兄弟們,進來隨便拿!’”就在幾個小時前,Hugging Face 上悄悄出現了一個代號為 DeepSeek-Math-V2 的倉庫。 沒有發佈會,沒有漫長的預熱,甚至連個像樣的宣傳片都沒有。 但懂行的開發者看到那個 README 文件時,手都抖了。國產之光 DeepSeek,又來“整頓職場”了。這次他們帶來的,是首個開放原始碼的、達到IMO(國際奧數)金牌水平的推理模型!一、 這一波,到底有多炸?先給大家看一張圖,這是 DeepSeek-Math-V2 在 Hugging Face 上的“成績單”:圖註:這根高高聳立的藍綠色柱子,就是DeepSeekMath-V2。在MATH benchmark上,它不僅碾壓了所有開源模型,甚至把不少閉源的“付費大哥”按在地上摩擦。這不僅僅是分數的勝利,這是“智商”的碾壓。 Hugging Face 的文件裡寫得清清楚楚: 這個模型是基於 DeepSeek-V3-Base 底座,通過大規模的強化學習(RL)訓練出來的。這就好比,以前的AI是“背題庫”考上的大學; 現在的 DeepSeek-Math-V2,是自己在題海裡“悟道”,練成了絕世武功。二、 核心黑科技:它不再是“鸚鵡”,它學會了“慢思考”點開 Hugging Face 的檔案列表,你會發現這個模型最大的特點:它變“囉嗦”了,但也變強了。以前我們問AI:“9.11和9.9誰大?” 普通AI可能直接瞎蒙:“9.11大。” 但 DeepSeek-Math-V2 會在後台開啟“上帝視角”:自我質疑:它會先想,“使用者是不是在考我小數點的陷阱?”多步驗證:它會拆解問題,一步步推導,甚至自己寫程式碼驗證結果。最終輸出:確認無誤後,才告訴你正確答案。這種**CoT(思維鏈)**能力,以前是 OpenAI o1 系列的獨門絕技。 現在?DeepSeek 把它開源了。這意味著,任何一個大學生、研究員,甚至是你家隔壁寫程式碼的小哥,都能在自己的電腦上(視訊記憶體夠的話),運行一個擁有“博士級”數學大腦的AI。三、 為什麼說它是“Google殺手”?在 DeepSeek-Math-V2 發佈之前,Google的 Gemini 團隊一直引以為傲的就是他們的數學推理能力。 但 DeepSeek 用一種名為 GRPO(Group Relative Policy Optimization) 的強化學習演算法,給Google上了一課。簡單來說,DeepSeek 沒有像Google那樣堆砌無窮無盡的算力資源。 他們更聰明。 他們讓模型在沒有人類老師判卷的情況下,自己給自己出題,自己給自己打分。 這種“左右互搏”的訓練方式,讓模型在數學推導、程式碼程式設計這種“非黑即白”的領域,進化速度快得嚇人。Hugging Face 上的資料顯示:在競賽級數學題上,DeepSeek-Math-V2 的表現已經足以拿到 IMO(國際奧數)的金牌。四、 開源,是給世界最好的禮物阿文我在翻閱 Hugging Face 的評論區時,看到一位外國開發者留下了這樣一句話:"DeepSeek is saving the open-source community single-handedly."(DeepSeek 正在單槍匹馬拯救開源社區。)為什麼我們這麼激動? 因為 OpenAI 越來越封閉,Google越來越商業化。 只有 DeepSeek,像一個俠客。 它證明了:不需要兆參數,不需要千億美金,只要演算法足夠精妙,開源一樣可以戰勝閉源!五、 下載連結就在那,誰敢來戰?DeepSeek-Math-V2 的連結現在就掛在 Hugging Face 上。 它就像一把插在石頭裡的“石中劍”。 誰能拔出它,誰就能擁有挑戰巨頭的力量。對於我們普通人來說,這不僅僅是一個新模型。 這是國產AI向世界證明:我們不只是會做套殼APP,我們在最硬核的底層演算法上,一樣能站在世界之巔。 (阿文學AI)
阿里開源超強多模態模型!70億參數干翻Google,看一眼秒出食譜,嘮嗑更像人,還能視訊聊天
更強大的模型還在路上。智東西3月27日報導,今天,阿里巴巴通義千問發佈了新一代端到端多模態旗艦模型Qwen2.5-Omni-7B。這一模型能夠即時處理文字、圖像、音訊和視訊等多種輸入形式,並通過即時流式響應同時生成文字與自然語音合成輸出。該模型現已在Hugging Face、魔搭、DashScope和GitHub上開源,採用寬鬆的Apache 2.0開源協議,模型論文也全面開源,詳解了背後的技術細節。同時,使用者可以在Demo中體驗互動功能,或是在Qwen Chat中像打電話或視訊通話一樣與Qwen聊天。千問團隊稱,Qwen2.5-Omni採用了全新的Thinker-Talker架構,支援跨模態理解和流式文字、語音響應,支援分塊輸入和即時輸出。在與同等規模的模型進行基準測試比較時,Qwen2.5-Omni表現出一定優勢,並超過了Gemini 1.5 Pro和GPT-4o-mini等閉源模型。Qwen2.5-Omni在音訊能力上優於類似大小的Qwen2-Audio,並與Qwen2.5-VL-7B保持同等水平。在權威多模態理解測試OmniBench上,Qwen2.5-Omni獲得了SOTA表現,超越Gemini 1.5 Pro,提升幅度達30.8%。Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文字輸入處理類似的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試獲得了不錯的成績。開源地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdfDemo體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo4月1-2日,智東西聯合主辦的2025中國生成式AI大會將舉行。50+位嘉賓將在開幕式、GenAI應用論壇、大模型峰會、DeepSeek R1與推理模型技術研討會、AI智能體技術研討會、具身智能大模型技術研討會帶來報告、演講、對話和討論。掃碼申請主會場觀眾票或購票參會。01.全模態即時互動,看一眼食材秒出食譜在部落格文章中,千問團隊放出了多個Qwen2.5-Omni在現實世界多模態場景中的測試案例。目前,Qwen2.5-Omni共有Cherry和Ethan兩種語音可供選擇。Cherry音色對應的是女聲,Ethan音色對應的是男聲。從聽感來看,這兩種語音真實、自然,會在說話時加入停頓、語氣詞等內容。Qwen2.5-Omni能在場景中即時處理、分析多模態內容。例如,在下廚時,可以拿著食材詢問通義應該如何處理,或是環視廚房裡的調料,看究竟應該用那些調料,可謂是廚房小白福音了。Qwen2.5-Omni能聽懂音樂,判斷歌曲是什麼風格,採用了何種音調,並提出對原創歌曲歌詞、節奏等方面的意見。在繪畫時,Qwen2.5-Omni可以根據草圖判斷繪畫內容,還能給出畫面的構圖建議。此外,Qwen2.5-Omni還可以在戶外場景判斷天氣、在學習場景中輔助解題、論文閱讀,具備較好的通用多模態能力。02.自研端到端架構,獲得多模態理解基準測試SOTAQwen2.5-Omni採用Thinker-Talker雙核架構。Thinker模組如同大腦,負責處理文字、音訊、視訊等多模態輸入,生成高層語義表徵及對應文字內容。Talker模組則類似發聲器官,以流式方式接收Thinker即時輸出的語義表徵與文字,流暢合成離散語音單元。Thinker基於Transformer解碼器架構,融合音訊/圖像編碼器進行特徵提取;Talker則採用雙軌自回歸Transformer解碼器設計,在訓練和推理過程中直接接收來自Thinker的高維表徵,並共享全部歷史上下文資訊,形成端到端的統一模型架構。千問團隊還提出了一種新的位置編碼技術,稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現視訊與音訊輸入的同步。在多項基準測試中,Qwen2.5-Omni在包括圖像,音訊,音視訊等各種模態下的表現都優於類似大小的單模態模型以及閉源模型。值得一提的是,在多模態理解基準測試OmniBench上,Qwen2.5-Omni達到了SOTA表現,其得分為56.13%,超過第2名Gemini 1.5 Pro的42.91%。在視訊到文字任務上,Qwen2.5-Omni也超過了原本的開源SOTA模型和GPT-4o-mini。在其他基準測試中,如語音識別(Common Voice)、翻譯(CoVoST2)、音訊理解(MMAU)、圖像推理(MMMU、MMStar)、視訊理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感),Qwen2.5-Omni的成績均超過了Qwen家族的其他單模態模型。03.結語:更強大的Qwen2.5-Omni還在路上Qwen2.5-Omni-7B一經發佈便獲得海內外使用者的關注,有不少網友已經開啟了催更模式,比如增加對小語種的支援、開發千問海外App,或是與智能眼鏡等硬體結合。據千問團隊介紹,未來,他們還會發佈能力更強、速度更快的模型,並擴展其多模態輸出能力,涵蓋圖像、視訊和音樂等多種形式。 (智東西)